Ace-Step 1.5
https://ace-step.github.io/ace-step-v1.5.github.io/Project
https://arxiv.org/abs/2602.00744ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation
https://huggingface.co/ACE-Step/Ace-Step1.5ACE-Step/Ace-Step1.5
https://blog.comfy.org/p/ace-step-15-is-now-available-in-comfyuiComfyUIブログ
https://huggingface.co/Comfy-Org/ace_step_1.5_ComfyUI_filesComfyUI向けモデル
https://github.com/ace-step/ACE-Step-1.5ace-step/ACE-Step-1.5
公式の実装
https://github.com/ace-step/ace-step-skillsace-step/ace-step-skills
公式によるコーディングエージェント(Claude Code/CodeX)向けスキル
table:DiT
DiT Model SFT RL CFG Step Refer audio Text2Music Cover Repaint Extract Lego Complete Quality Diversity
acestep-v15-base ❌ ❌ ✅ 50 ✅ ✅ ✅ ✅ ✅ ✅ ✅ Medium High
acestep-v15-sft ✅ ❌ ✅ 50 ✅ ✅ ✅ ✅ ❌ ❌ ❌ High Medium
acestep-v15-turbo ✅ ❌ ❌ 8 ✅ ✅ ✅ ✅ ❌ ❌ ❌ Very High Medium
acestep-v15-turbo-rl ✅ ✅ ❌ 8 ✅ ✅ ✅ ✅ ❌ ❌ ❌ Very High Medium
table:TE
LM Model Pretrain from Pre-Training SFT RL CoT metas Query rewrite Audio Understanding Composition Capability Copy Melody
acestep-5Hz-lm-0.6B Qwen3-0.6B ✅ ✅ ✅ ✅ ✅ Medium Medium Weak
acestep-5Hz-lm-1.7B Qwen3-1.7B ✅ ✅ ✅ ✅ ✅ Medium Medium Medium
acestep-5Hz-lm-4B Qwen3-4B ✅ ✅ ✅ ✅ ✅ Strong Strong Strong
パラメータ数が前モデルより少し減っている
テキストエンコーダー込だと最大では増えている?
https://github.com/ace-step/ACE-Step-1.5/blob/main/docs/ja/Tutorial.md#ace-step-15-%E7%A9%B6%E6%A5%B5%E3%82%AC%E3%82%A4%E3%83%89%E5%BF%85%E8%AA%ADどうやらパラメータが減っている(速度を重視している)のは設計思想的なところが大きいようだ
以下結構長いので一部引用、全体は↑のリンクから
メンタルモデル
人間中心の設計
このモデルはワンクリック生成のためではなく、人間中心の生成のために設計されています。
この違いを理解することが重要です。
ワンクリック生成とは?
プロンプトを入力し、生成をクリックし、いくつかのバージョンを聞いて、良さそうなものを選んで使用します。別の人が同じプロンプトを入力すると、おそらく似た結果が得られます。
このモードでは、あなたとAIはクライアントとベンダーの関係です。明確な目的を持って来て、頭の中に曖昧な期待があり、AIがその期待に近い製品を提供することを望みます。本質的には、Googleで検索したり、Spotifyで曲を探したりするのと大差ありません——カスタマイズが少し増えただけです。
AIはサービスであり、創造的なインスピレーションを与えるものではありません。
人間中心の生成とは?
AIの層を弱め、人間の層を強化する——より多くの人間の意志、創造性、インスピレーションがAIに生命を与える——これが人間中心の生成です。
ワンクリック生成の強い目的性とは異なり、人間中心の生成はより遊びの性質を持っています。それは対話的なゲームのようなもので、あなたとモデルは協力者の関係です。
ワークフローは次のとおりです:いくつかのインスピレーションの種を投げ、いくつかの曲を得て、そこから興味深い方向を選択して反復を続けます——
プロンプトを調整して再生成
Coverを使用して構造を維持し、詳細を調整
Repaintで局所的な変更
Add Layerで楽器の層を追加または削除
この時点で、AIはあなたにとってサービス提供者ではなく、インスピレーションを与えるものです。
要するに「AIに叩き台を作らせる→叩き台の使えそうな所を残して変えたい所を編集指示→AIが編集する→編集したものをベースに更に修整したい所を指示する→AIが編集する→(以降納得するまで繰り返し)」のようなフローを想定しているようだ。
アーキテクチャ
https://gyazo.com/24e946ea4ed800fc2b127a38a935d8f9
1D VAE
48kHzステレオを64次元潜在空間に圧縮
DiT
Masked Generative Framework
latent + マスク操作で6つのタスクができる
https://gyazo.com/3924343ec32e1007c875273efd669b63
1. text2music
2. カバー
3. Repainting (inpainting)
4. トラック抽出
音源から特定の音(e.g. ボーカル、ドラム)だけ取り出す
5. Layering
既存のトラックに音を足す
6. Completion
短いモチーフからアレンジを加えて曲を仕上げる
言語モデル
ACE-Step 1.5は、音のレンダリングはDiT、プロンプト整形+設計図づくりは言語モデルと役割分担をしている
Composer Agent (Qwen LMベースの作曲エージェント)が、ユーザーの曖昧な指示をYAML形式のメタデータ(BPM / key / duration / structure…)に書き換える
https://github.com/Comfy-Org/ComfyUI/blob/855849c6588180fec88186127aae1a3299387fa6/comfy/text_encoders/ace15.py#L4ComfyUIでは多分やってないnomadoor.icon
設定したパラメータを直接テンプレ文字列にしている
前
ACE-Step
#stepfun-ai
#text2audio
#text2music
#音楽生成モデル
#音楽生成ai